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应 用 于 材料 图 像 分 割 的 Graph-UNet 
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(1. 上 海 大 学 计算 机 科学 与 工程 学 院 ， 上海 200444; 2. 之 江 实 验 室 , 杭州 311100) 


摘 要 : 小 样本 材料 图 像 分 割 是 图 像 分 割 领域 的 研究 难点 之 一 。 材 料 图 像 的 微观 结构 大 多 数 有 形状 各 异 、 纹 理 复杂 
和 边界 模糊 等 特点 ， 会 导致 材料 图 像 的 分 割 不 准确 。Graph-UNet 被 提出 融合 UNet 和 图 卷 积 神经 网 络 来 解决 小 样本 
材料 图 像 自动 分 割 的 挑战 ， 它 将 卷 积 神经 网 络 的 多 维特 征 融 合 和 跳跃 连接 的 思想 迁移 到 图 卷 积 神经 网 络 中 实现 图 卷 
积 和 图 注意 力 的 有 效 结合 ， 并 且 建 立 了 一 个 通用 的 模块 实现 特征 图 和 图 结构 相互 转换 。 在 材料 图 像 数据 集 上 进行 了 
对 比 和 消融 实验 , 证 明 Graph-UNet 的 分 割 结果 优 于 很 多 先进 方法 ， 准 确 的 识别 了 多 种 材料 结构 ， 推 动 了 探究 材料 结 
构 和 性 能 关系 的 发 展 。 
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Graph-UNet for material image segmentation 


Wei Huishan', Han Yuexing!*i, Wang Bing!, Chen Qiaochuan! 
i (1. School of Computer Engineering & Science, Shanghai University, Shanghai 200444, China; 2. Zhejiang Laboratory, 
] Hangzhou 311100, China) 


Abstract: Image segmentation of small sample material is one of the difficulties in the field of image segmentation. Most of 
the microstructure of material image has the characteristics of different shape, complex texture and fuzzy boundary, which 
will lead to the inaccurate segmentation of material image. Graph-UNet is proposed to integrate UNet and Graph convolutional 
neural network to solve the challenge of automatic image segmentation of small sample materials. The model transferred the 
idea of multi-dimensional feature fusion and jump connection from convolutional neural network to graph convolutional 
neural network. The model realizes the effective combination of graph convolution and graph attention. A universal module 
is established to convert feature graph and graph structure to each other. The comparison and ablation experiments on material 
image data sets prove that Graph-UNet segmentation results are superior to many advanced methods and can accurately 
identify multiple material structures, which promotes the development of exploring the relationship between material structure 
and properties. 

Key words: semantic segmentation; graph convolutional neural network; graph attention; material image; deep learning; 
small sample 
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材料 样本 ， 由 于 大 多 数 材料 图 像 的 获取 成 本 过 高 ， 这 限制 了 
深度 学 习 在 材料 图 像 分 割 中 的 应 用 。Jiang 等 人 外 提出 了 一 种 
随 着 图 像 分 割 方法 的 不 断 发 展 ， 以 及 各 领域 间 的 交 义 和  ” 基于 深度 学 习 的 方法 , 直接 对 整 幅 图 像 进 行 像素 级 材料 分 割 ， 
融合 ， 科 学 工作 者 尝试 用 先进 的 图 像 分 割 方法 运用 到 材料 图 将 扩张 卷 积 特 征 与 传统 卷 积 特征 相 结合 ， 去 除 扩张 卷 积 带 来 
像 分 割 中 ， 如 文献 [1,.2]。 材 料 图 像 的 精准 分 割 有 助 于 推动 材 ”的 伪 影 。Xiong 等 人 四 提出 了 一 种 基于 简单 线性 迭代 聚 类 超 
料 的 制造 工艺 、 结 构 和 性 能 之 间 的 关系 的 研究 ， 有 助 于 新 材 ”像素 区 域 生 成 和 卷 积 神经 网 络 分 类 的 水 稳 穗 段 分 割 算法 。 然 
料 的 开发 。 材 料 结构 的 图 像 分 割 是 对 材料 图 像 进行 后 续 处 理 而， 水 稻 穗 段 有 着 明显 的 边界 和 区 域 特征 ， 使 用 超 像素 方法 
的 基础 。 材 料 图 像 中 目标 区 域 的 准确 分 割 对 于 结构 分 析 、 研 ”存在 特定 任务 的 局 限 性 。Decost 等 人 器 提 出 一 种 深度 卷 积 h 
究 材 料 性 能 等 都 具有 重要 意义 。 经 网 络 ， 能 够 从 含有 多 种 微观 成 分 的 微观 图 中 获得 水 石灰 粒 
大 多 数 材 料 图 像 包含 复杂 的 纹理 和 各 种 形状 的 微观 结构 ，” 度 和 变质 区 宽度 的 分 布 。 然 而 ， 他 们 主要 是 针对 特定 的 应 用 
即使 是 同 种 材料 结构 也 会 存在 差别 很 大 的 形状 和 纹理 。 材 料 场景 设计 网 络 模 型 。 
结构 千差万别 ， 材 料 图 像 的 标注 需要 耗费 大 量 的 人 力 和 时 间 为 了 解决 端 到 端的 材料 图 像 分 割 任务 , 本 文 结合 UNet 和 
成 本 。 因 此 提高 模型 的 泛 化 性 和 人 解决 小 样本 图 像 分 割 问题 也 卷 积 神经 网 络 提出 了 一 个 通用 的 网 络 模型 ，Graph-Unet， 
是 必 不 可 少 的 。 在 小 样本 数据 集中 ， 区 分 不 同 的 材料 结构 医 0 图 1 所 示 。 本 文 利 用 深度 卷 积 网 络 对 一 个 图 进行 建 模 ， 并 
像 是 一 个 困难 的 任务 。 必用 图 卷 积 方法 来 解决 材料 图 像 的 语义 分 割 任务 。 该 模型 
目前 已 经 有 了 与 材料 图 像 分 制 有 关 的 深度 学 习 方 法 。 将 卷 积 神经 网 络 中 处 理 的 特征 图 建立 一 个 图 结构 ， 使 用 多 维 
Azimi 等 人 BI 利 用 全 卷 积 神经 网 路 (FCN) 提 出 了 一 种 新 型 的 度 跳 跃 连接 的 图 注意 力 模 型 (MGAM) 在 邻居 节点 之 间 交 换 特 
针对 材料 显 微 组 织 的 分 割 算法 MVFCNN .该 方法 需要 较 多 的 。 征 ， 再 将 交换 信息 后 的 图 结构 封装 为 特征 图 进行 后 续 的 卷 积 
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层 操作 。 本 文 方法 主要 有 两 点 贡献 ，a) 提 出 了 一 种 新 型 的 图 
注意 力 模 块 ， 将 图 卷 积 和 图 注意 力 进行 多 种 不 同 维度 的 特征 
融合 ，b) 提 出 了 一 个 应 用 于 材料 图 像 的 图 模型 ， 将 图 像 封装 
成 图 结构 参与 图 卷 积 。 


魏 惠 姗 ， 等 : 


本 文 的 其 余部 分 内 容 如 下 : 在 第 一 节 介绍 了 本 文 的 网 络 
框架 和 具体 细节 。 第 二 节 展 示 了 在 材料 数据 集 上 的 实验 结果 


和 讨论 。 第 三 节 是 对 本 文 工 作 的 总 结 和 对 未 来 的 展望 。 


Graph Attention Based on Multidimensional Feature Fusion 


图 1 网 络 结构 
Fig.1 Network structure 


1 ”语义 分 割 中 的 图 模型 


图 卷 积 神经 网 络 是 为 解决 在 图 结构 数据 集 上 的 学 习 问 题 
而 设计 的 。 如 今 ， 研 究 者 开始 探索 图 卷 积 如 何 应 用 在 结构 化 
数据 上 。Lu 等 人 中 首次 用 图 卷 积 结合 全 卷 积 神经 网 络 解决 语 
义 分 割 难题 ， 使 模型 有 1.34% 的 性 能 提升 。Zhang 等 人 [9 提出 
对 侦 图 卷 积 网 络 (DGCNet), 将 处 理 不 规则 数据 的 图 卷 积 融 合 
到 解决 语义 分 割 任务 的 双重 注意 力 模 型 中 。Ma 等 人 外 提出 了 
一 种 新 的 注意 图 卷 积 网 络 (AGCN) 来 对 遥感 图 像 数据 进行 超 
像素 分 割 ,利用 图 卷 积 结合 图 注意 力 实现 图 像 分 割 。 
目前 ， 很 少 有 结合 图 卷 积 的 网 络 模型 针对 材料 图 像 进行 
分 割 ， 借 鉴 前 人 的 研究 思路 ， 本 文 设计 图 结构 主要 有 两 个 特 
点 。 首 先 ， 图 结构 有 更 加 灵活 的 跳跃 连接 ， 不 像 卷 积 网 络 中 
以 一 个 像素 为 中 心 , 建立 一 个 n Xn 的 局 部 区 域 进行 卷 积 , 图 
卷 积 中 ， 每 个 节点 的 领域 可 以 自 定义 范围 。 其 次 ， 图 卷 积 的 
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各 的 建立 后 ， 每 个 节点 之 间 和 有 
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EE 图 , 即 对 每 条 边 赋 予 方向 性 。 
的 连接 情况 没有 差 


， 本 文 会 将 每 个 节点 的 总 度 初始 化 为 特定 值 ， 即 四 邻 域 


的 方式 。 本 文通 过 监督 学 习 来 训练 这 个 模型 。 
1.2 基于 多 维特 征 融 合 的 图 注意 力 


1;2:1 


注意 力 模块 ， 本 文 创建 了 图 编码 器 把 特征 


图 编码 器 


图 注意 力 模块 的 输入 是 图 结构 。 为 了 将 特征 图 输入 到 图 


在 本 文 模型 


图 转换 为 图 结构 。 


F ,节点 特征 


在 图 


模型 中 ， 用 人 


Pp 接 和 矩阵 表示 


UNet 的 编码 器 部 分 初始 化 。 
点 间 边 的 连接 ， 每 个 节点 都 


连接 


到 它 最 近 的 节点 。 本 文 相 


民 据 像素 点 的 空间 位 


关系 让 每 


个 节点 按照 四 邻 域 的 方式 建立 边 的 连接 。 节 点 间 的 连接 表示 


特征 


1.2.2 图 注 


(MGAM)， 如 图 


本 文 


图 2 


图 注意 力 模块 
Fig.2 Graph attention module 


可 以 通过 图 注意 力 模 块 中 的 边 进行 传播 。 
意 力 模 块 
提出 了 一 种 基于 多 维特 和 
2 所 示 。 


EE 融合 的 图 注意 力 模块 
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国 GAT Iayer 


图 卷 积 神经 网 络 (GCN) 是 处 理 图 结构 的 深度 学 习 方 法 之 


， 它 的 


消息 传播 机 制 在 节点 间 交 换 信息 ， 随 着 图 卷 积 层 的 堆 车 ,每 
个 节点 的 感受 野 变 得 更 大 ， 充 分 捕捉 更 大 范围 的 特征 。 

为 了 延续 注意 力 机 制 在 图 像 分 割 任务 中 的 优点 ， 增 强 网 
络 对 重要 特征 的 关注 ， 本 文 将 基于 多 维特 征 融合 的 图 注意 力 
模块 加 入 UNett9 中 解决 小 样本 材料 图 像 的 语义 分 割 问题 。 
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并 构建 了 


1 
ZH =0o( Di 


编码 器 的 输出 转换 的 图 
E 阵 。~ 是 指 图 
相应 的 度 和 矩阵 p 和 邻接 揣 


邻接 入 


现 公 式 03 如 下 : 


1 
AD 2XW') 


的 权 值 矩 阵 。c 是 ReLU 激活 函数 。 


作 的 输出 。 


结构 。 
的 每 个 节点 添加 了 自 连 
E 阵 4。W' 是 第 1 层 图 
Zn 是 第 1+1 


(1) 


D 和 4 分 别 


层 图 卷 


图 注意 力 网 络 (GAT) 是 应 用 于 图 结构 的 注意 力 机 制 之 一 ， 


本 文选 择 UNet 作为 骨干 网 络 的 初衷 是 因为 UNet 最 初 应 用 
于 医学 图 像 ， 而 材料 图 像 与 医学 图 像 有 很 大 的 相似 之 处 ， 例 
如 颜色 单调 ， 以 灰 度 图 为 主 。 现 在, 对 于 UNet 的 改进 方法 经 
的 有 UNet++00 和 Attention-UNetl12 等 。UNet++ 主 要 通过 
增加 跳跃 连接 增强 对 图 像 特征 的 补充 ， 而 Attention-UNet 通 


它 的 具体 实现 公式 U1 如下: 
是 
FR) = oY TotW)N, 
KO 


KK 表示 注意 力 头 的 个 数 ，Ni 是 节点 i 的 邻 


三 1 


过 在 解码 器 部 分 增加 注意 力 机 制 提高 网 络 性 能 。 本 文 受 到 图 
卷 积 和 注意 力 机 制 在 图 像 分 割 任务 中 应 用 的 启发 ， 提 出 了 图 
注意 力 模块 。 
在 本 文 提出 的 网 络 中 ， 输 入 图 像 首先 经 过 五 层 卷 积 层 ， 

前 四 层 随后 各 加 一 层 池 化 层 。 在 第 五 层 卷 积 层 之 后 ， 本 文 将 
提取 的 特征 图 转换 为 图 结构 ， 用 基于 多 维特 征 融合 的 图 注意 
力 模块 进行 节点 特征 的 传播 和 学 习 。 随 后 ， 模 块 将 图 结构 再 
征 图 进入 后 面 的 四 层 上 采样 层 ， 不 断 地 将 特征 图 的 
。 每 一 次 上 采样 操作 后 都 会 将 当前 的 特征 图 和 编码 
寸 大 小 的 特征 图 进行 拼接 。 最 后 , 网 络 通过 Sigmoid 
函数 输出 预测 图 ， 得 到 分 割 结果 。 
图 结构 
图 结构 是 一 种 非 规 则 的 数据 结构 。 图 结构 数据 可 以 视 为 
一 个 三 元 组 G(N,E,。N 是 图 的 节点 集 ， 它 是 一 个 |N|*S 矩 
阵 ，|N| 是 图 的 节点 数 ，S 是 节点 特征 向 量 的 维 数 ，E 是 图 的 
边 集 ，U 是 图 的 特征 。 


Sy 


全 是 第 个 注意 力 头 中 节点 i 和 它 的 第 j 个 人 


注意 
点 的 
层 的 


GCN 利用 了 拉 普 拉 
不 能 为 节点 的 每 个 人 
居 节 点 均一 视 同 仁 ， 不 能 根据 节点 寻 
然而 ，GAT 是 将 节点 特征 之 间 
利用 多 头 注意 力 以 稳定 学 
一 般 来 说 , GCN 解 六 
层 的 GCN 堆 释 会 导致 过 


GAT 


过 多 


力 系数 ， 
特征 向 量 ， 


聚合 后 的 输 旨 


故 第 下 个 注意 力 头 的 权重 矩阵 ， 
0 是 激活 函数 ， 


2) 
居 贡 点 集合 ， 
居 节 点 之 间 的 


是 第 j 个 节 
意 


是 节点 i 经 过 多 头 图 注意 


特征 。 其 中 的 具体 公式 如 下 : 


exp(Leaky Re LU(a [Wh | Wh,]) 


了 


LeakyReLUO 是 特定 的 激活 函数 ,a 条 
如、 加 入 分别 是 节点 六 
GCN 和 GAT 都 是 将 邻 


T 


居 分 配 不 


矩阵 ，GAT 利用 了 


节点 的 特 行 


Dn exp(Leaky Re LU (a [Wh; | Wh, )) 
0 丈 都 是 权重 矩阵 ， 
车 点 和 节点 i 的 第 r 个 邻居 节点 。 
居 节 


F 取 人 


末日 


同 的 权重 ， 


要 性 分 配 不 同 


上 中 心 节点 ， 


注意 力 系 数 。GCN 
在 卷 积 时 对 所 有 多 


的 权重 。 


的 相关 性 很 好 的 融合 到 了 模型 。 


习 过 程 ， 如 图 3 所 示 。 


节点 分 类 或 分 割 问题 采用 一 到 两 层 ， 
F 滑 的 问题 。 然而, 卷 积 神经 网 
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络 模型 中 , 一 般 深 层 的 卷 积 层 堆 登 会 展现 更 好 的 性 能 和 效果 。 
更 深 的 模型 ， 意 味 着 更 好 的 非 线性 表达 能 力 ， 可 以 学 习 更 加 
复杂 的 变换 ， 从 而 可 以 拟 合 更 加 复 条 的 特征 输入 ， 例 如 残 差 
网 络 。 为 了 借鉴 CNN 的 思想 ， 本 文通 过 增加 超 参 数 a 控制 
每 层 节点 特征 输入 下 一 层 图 卷 积 层 的 比例 ， 加 深 了 图 卷 积 模 
型 的 深度 。 这 种 思想 模拟 了 残 差 网 络 的 跳跃 连接 ， 但 这 种 连 
接 仅 部 分 缓解 了 过 度 平 滑 的 问题 。 当 堆 受 更 多 层 时 ， 模 型 的 
能 仍然 会 下 降 。 


度 


图 3 图 注意 力 的 多 头 注意 力 机 制 


Fig.3 The multi-attentional mechanism of graph attention 


本 文 使 用 两 层 GCN 一 边 对 节点 特征 进行 消息 传播 一 边 
对 节点 特征 降 维 操作 ， 再 通过 两 层 GCN 对 节点 特征 升 维 操 
攻 且 加 和 每 次 降 维 的 节点 特征 。 首 先 ， 输 入 图 结构 有 瓦 X 刺 
个 节点 ， 每 个 节点 特征 维度 为 C。 经 过 一 层 图 卷 积 层 ， 将 节 
点 特征 的 维度 降 到 C2 。 然 后 ， 再 将 节点 特征 更 新 过 一 次 的 
图 输入 第 三 层 图 卷 积 层 , 节点 特征 维度 降 为 C04。 紧 接着 ， 对 
图 进行 升 维 操作 ， 分 别 再 进入 两 层 图 卷 积 层 。 降 维和 升 维 后 
的 特征 一 一 对 应 ， 并 且 降 维 后 的 节点 特征 连接 一 层 图 注意 力 
GAT 再 加 和 到 升 维 的 的 图 卷 积 层 。 维 度 为 C、C/2 和 C/4 的 
图 结构 分 别 对 应 图 像 领域 中 的 高 分 辩 率 、 中 分 状 率 和 低 分 辨 
率 的 特征 图 。 通 过 代表 低 分 辨 率 特 征 图 的 图 结构 学 习 到 粗糙 


代表 高 分 辩 率 特征 图 的 图 结构 学 习 到 精 纪 


的 特征 ， 的 细节 特 
征 ， 将 不 同 分 辨 率 的 图 结构 融合 达到 对 小 样本 材料 图 像 的 准 
确 学 习 和 表示 。 在 图 经 过 图 注意 力 层 后 ， 通 过 设置 一 个 超 参 


数 a 控制 节点 特征 流动 到 下 一 层 图 卷 积 层 的 比例 。 设 置 超 参 
数 a 的 目的 是 为 了 避免 过 多 的 图 卷 积 层 导 致 节点 特征 最 终 都 
几乎 倾向 等 于 全 局 特征 。 特 征 升 维 部 分 的 具体 融合 实现 方式 
如 式 (4) 所 示 。 


HY =ahk+(-a)Z" (4) 
凡是 图 注意 力 层 输出 和 图 卷 积 层 升 维 操作 的 输出 的 加 


和 结果 ， 2! 是 第 1+7 层 图 卷 积 的 输出 特征 ， 
是 图 注意 力 层 的 输出 。 
图 注意 力 模块 是 网 络 模型 的 重要 组 成 模块 ， 是 图 卷 积 和 
图 注意 力 组 合 的 结果 。 它 主要 起 到 了 加 深 网 络 深度 ， 提 高 网 
络 拟 合 复杂 的 输入 图 像 的 能 力 ， 缓 解 网 络 对 局 部 特征 的 过 度 
关注 ， 避 免 了 忽视 全 局 特征 信息 ， 达 到 更 好 的 材料 图 像 分 割 


a 是 超 参数 ，h 


魏 惠 姗 ， 等 : 应 用 于 材料 图 


慌 地 更 新 字 


家 分 审 的 Graph-UNet 


的 梯度 下 降 优化 算法 Adam 
经 网 络 权重 ; 


动量 


以 减轻 模型 过 拟 合 的 问题 ; 
1， 初 始 学习 率 设 为 0.001， 通 
优 值 。 每 种 材料 结构 的 数据 集 包 含 两 类 标签 ， 即 
构 和 背景 材料 结构 。 
损失 函数 降低 输入 图 像 和 标签 图 像 之 间 的 损失 ， 保 存 100 次 
优 的 网 络 参数 以 备 测试 阶段 的 使 用 。 网 络 
来 衡量 。 


迭代 中 网 络 性 能 最 
性 能 是 否 优 良 的 评价 标准 是 使 

本 文 将 训练 数据 集 放 入 网 
参数 ， 再 放 入 测试 数据 集 进 行 
对 应 标注 图 的 MIoU 作为 评价 
将 网 络 的 输出 结果 转换 为 可 视 
本 文 实验 的 数据 集 一 
Spheroidite、Wood、 Pearlitel 逢 
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| 练 网 络 模型 ， 基 于 训练 数据 迭 
和 衰减 系数 为 0.9 和 0.0005， 
迭代 次 数 为 100， 批 处 理 大 小 为 
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本 文 将 训 


过 设置 学 习 率 区 近 网 络 参数 最 


标 材料 结 


练 数据 集 放 入 网 络 训练 ， 通 过 


Pearlitel 和 Pearlite2 是 开源 的 


| MIloU 


络 训练 ， 保 存 训练 最 优 的 网 络 


预测 ， 


计算 测试 集 预测 结果 后 


网 络 性 能 的 指标 。 最 后 ， 本 文 


化 的 二 值 化 标注 结果 图 
类 材料 结构 ， 
1 Pearlite2 。 其 中 , Spheroidite、 


共 四 


分 别 是 


材料 数据 , 来 源 于 文献 [15]。 材 


料 数据 集 


于 实验 复杂 条 


片 ， 数 据 集 分 布 如 表 1 所 示 。 
表 1 数据 集 分 布 
Tab. 1 Data set distribution 


[标注 成 本 高 昂 ， 每 类 有 4 到 6 张 图 


class spheroidite wood pearlitel pearlite2 
train set 4 4 4 3 
test set 2 2 2 1 
data set 6 6 6 4 
本 文 主要 用 MIoU 作为 语义 分 割 网 络 的 评价 指标 ， 有 具体 


计算 公式 如 下 : 


1 Pi 
MIoU = 本 E 
Fri Sn Pi 


大 


Pi 个 


i， 被 预测 为 的 数量 。pji; 表示 
量 。k 是 类 别 个 数 。MIoU 一 般 都 是 基于 类 进 
一 类 的 IoU 计算 之 后 累加 ， 再 进行 平均 ， 得 到 的 就 是 基于 全 


(5) 


真实 值 为 i, 被 预测 为 i 的 数量 ,py 表示 真实 值 为 
真实 值 为 j， 被 预测 为 i 的 数 
行 计算 的 ,将 每 


局 的 评价 。 
2.2 与 现 有 方法 的 对 比 实验 
为 进一步 证 


E 明 提出 的 模型 


能 有 效 的 应 ) 


任务 中 ， 本 文 比较 了 在 同样 数 


本 文 比 较 了 


据 集中 当前 先进 的 方法 。 


传统 的 图 


在 材料 图 像 分 割 


像 分 割 方法 ， 包 括 KMeans14 和 


Watershed[171 的 分 割 结果 图 ， 还 有 深度 学 习 方 法 FCN[181、 


UNetLIO、 


UNet02 和 Unet3+PH 。 
像 中 


对 复杂 纹理 图 


UNet++IU、CENet 


19]、R2U-Net2、Attention- 


效果 。 图 卷 积 不 会 改变 特征 图 像素 点 的 空间 位 置信 息 ， 节 
不 会 消失 。 图 注意 力 层 起 到 了 关注 重要 节点 的 作用 
要 节点 的 特征 流动 ， 抑 制 无 关节 点 的 特征 流动 。 
1.2.3 图 解码 器 

图 注意 力 模块 的 输出 依然 是 图 结构 。 为 了 将 图 注意 力 模 
块 的 输出 可 以 继续 放 入 卷 积 神经 网 络 中 ， 本 文 创建 了 图 
器 将 图 结构 转换 为 特征 图 。 


2 ”实验 和 讨论 
实验 环境 与 评价 标准 


2.1 


节 特 征 都 被 分 


制 | 


构 ， 各 相 被 过 度 分 制 。Watersh 


4 中 Watershed 第 S、6 和 7 图 


ed 的 分 割 结果 


出 现 了 分 割 


区 


大 面积 呈现 黑 


实验 结果 如 图 4 和 表 2 所 示 , KMeans 
的 噪声 过 于 敏感 ， 导 致 绝 大 多 数 纹理 的 纪 
出 来 .。 因此, KMeans 不 能 得 到 完整 的 材料 结 
层次 不 齐 ， 如 图 
， 基 本 没有 分 割 出 目标 结构 其 
色 的 错误 结果 。 可 见 对 于 对 比 


至 
度 不 强烈 的 灰 度 图 ，Watershed 难以 实现 较 好 的 分 割 效 果 。 


KMeans 和 Watershed 在 图 像 分 割 人 


在 实验 中 , 本 文 使 用 了 i7-8750H CPU@2.20Hz 的 处 理 器 
的 计算 机 ， 以 及 Python3.8 的 开发 工具 。 网 络 是 通过 PyTorch 
实现 的 。 
本 文 将 图 片 大 小 统一 为 512X512 的 大 小 作为 网 络 输入 ， 
并 且 将 标签 图 像 转 换 为 二 值 化 图 像 用 于 训练 阶段 的 使 用 ， 将 


显 的 噪 ] 


颜色 差异 ， 即 


料 结构 ，FCN 没有 很 好 的 将 


征 学 习 十 分 不 充足 。FCN 


上 


于 深度 学 习 的 网 络 模型 在 材料 图 像 分 割 
本 匮乏 ， 无 法 得 到 丰富 的 数据 集训 练 ， 导 致 对 材料 结构 的 特 
验 结果 出 现 了 不 同 程度 的 噪声 。 
见 图 4 中 FCN 的 第 3 张 图 ， 边 界 附近 出 现 了 许多 微小 但 明 
， 说 明 FCN 对 于 边界 附近 的 特征 学 习 还 
见 图 4 中 FCN 的 第 7 张 图 ， 在 块 状 的 材料 结构 存在 
色 。 对 于 这 样 的 材 


的 实 


、 Ea 
心 趋向 黑色 ， 


FE 务 上 缺乏 通用 性 
竹 务 上 的 表现 因为 样 


。 各 个 基 


所 欠缺。 


边缘 呈现 白 


分 割 出 很 多 不 存在 的 边界 。 显 
区 


二 元 交 义 炉 损失 函数 作为 网 络 的 损失 函数 。 本 文 使 用 带动 呈 


噶 


文 信息 ， 导 致 分 制 出 很 多 小 


ea 
Ea 
疝 


于 同一 块 的 结构 分 割 为 一 块 ， 
然 , FCN 没有 很 好 的 结合 上 下 
或 。UNet、UNet++ 和 UNet+++ 


明显 的 


I 
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的 分 割 结果 都 不 错 , 但 是 三 个 网 络 相 比 之 下 , UNet+++ 的 分 割 可 表 3 不 同 骨 干 网络 的 对 比 实验 

视 化 效果 略 欠 一 筹 ， 出 现 了 一 些 噪声 ， 这 说 明 对 于 材料 数据 集 Tab.3 Comparative experiments of different backbone networks 
来 说 过 多 的 跳跃 连接 不 一 定 是 百 利 而 无 一 害 。CENet 的 评价 指 Methods spheroidite wood pearlitel pearlite2 Mean 
标 和 分 割 图 都 趋 于 稳定 ， 但 依然 存在 小 范围 的 分 割 错 误 ， 如 图 95.0883 88.0642 92.6186 90.5320 91.5758 
4 中 CENet 的 第 2 张 和 第 7 张 图 。R2U-Net 的 实验 结果 出 现 了 R34-UNet-MGAM 95.4993 88.5567 93.6210 91.0782 92.1888 
局 部 分 割 错误 。Attention-UNet 的 分 割 结果 也 出 现 了 层次 不 齐 。 94.1122 88.8613 93.4565 90.9899 91.8550 
更 详细 的 统计 如 表 2 所 示 ， 本 文 的 方法 在 MIoU 指标 上 也 表现 R34FCN-MGAM 95.5784 89.5392 94.0044 91.1701 92.5730 


的 更 加 优异 ， 大 多 超过 现 有 方法 2~5 个 百分点 左右 。 96.1455 89.9543 94.1003 91.4282 92.9071 

Sl AA UNett+-MGAM 96.5721 90.0362 94.1026 91.4533 93.0411 
。 95.6969 89.3567 93.7345 91.6389 92.6068 
本 文 approach 96.9200 90.3073 94.6179 91.5946 93.3600 


表 4 不 同 注意 力 方法 的 对 比 实验 


Tab.4 A comparative experiment of different attention methods 


Cd 
truth » 1 
j 


KMeans $2 SA 4 


Methods spheroidite wood pearlitel & pearlite2 Mean 


7 


93.4806 88.3570 93.1956 89.8086 91.2105 
96.3472 88.2062 93.3316 90.3746 92.0649 
96.3901 88.3589 94.5993 90.9791 92.5819 
95.8607 88.4541 92.0037 88.0546 91.0933 


~ 购 嗓 
94.6511 89.4653 93.9191 90.2729 92.0771 


可 
二 
/ Kx 
<“ 出 22 元 双 本 文 approach 96.9200 90.3073 94.6179 91.5946 93.3600 


| S 2.4 消融 实验 


轩 在 本 文 的 工作 中 ， 主 要 提出 了 一 个 新 颖 的 基于 多 维特 征 
Ke A 融合 的 图 注意 力 模块 。 为 了 了 解 图 卷 积 、 图 注意 力 和 超 参数 
/| 多 a 对 网 络 模型 的 影响 ， 本 文 做 了 详细 的 消融 实验 。 本 文 主要 
ou PA 2 ya 做 了 五 组 实验 ,第 一 组 的 网 络 模型 是 UNet 加 一 层 图 卷 积 层 。 
a as 第 二 组 是 UNet 加 一 层 图 注意 力 层 。 第 三 组 是 UNet 加 上 基于 
图 4 对 比 实验 多 维特 征 融 合 的 图 卷 积 模块 。 第 四 组 是 UNet 加 上 没有 超 参 
Fig.4 Contrast experiment 数 a 的 基于 多 维特 征 融合 的 图 注意 力 模块 。 第 五 组 是 本 文 的 
表 2 对 比 实验 网 络 模型 。 对 比 了 五 组 不 同 的 网 络 模型 在 材料 数据 集 上 的 分 
Tab. 2 Comparative variety trial 市 结果 ， 不 同 图 卷 积 模块 的 结构 如 图 5 所 示 。 
Methods spheroidite wood pearlitel & pearlite2 aver. | 1 
| GCN 
41.5487 88.4293 32.3180 58.7838 55.2700 Bm [eA i ,re 
91.8501 63.6468 58.7721 35.0380 62.3268 | Gd 地 
94.3108 88.3342 92.4786 。 88.1496 90.8183 ye oy 
95.6969 89.3567 93.7345 91.6389 92.6068 [TS 6 | 
WI 96.1455 89.9543 94.1003 91.4282 92.9071 ee re eed 
94.0800 89.0585 93.3075 91.3135 91.9399 [CScNz LGAT [ETH GAT 
83.2993 88.2415 85.8098 87.0114 86.0905 (d) MGAM-a (e) MGAM 
91.9393 91.2300 94.8990 。 89.8639 91.9831 图 5 不 同 图 卷 积 模块 的 结构 
92.8708 89.2140 93.6977 87.5113 ”90.8235 Fig.5 Structure of different graph convolution modules 
本 文 approach 96.9200 90.3073 94.6179 91.5946 93.3600 消融 实验 的 结果 如 表 5 所 示 ， 报 告 中 的 数字 以 百分比 作 
本 文 的 网 络 模型 对 多 类 数据 集 的 分 割 效果 呈现 稳定 的 性 。” ”为 分 割 精度 。 从 表格 中 发 现 ， 本 文 提出 的 基于 多 维特 征 融 合 


HH 


E 意 力 模块 对 于 模型 性 能 有 着 积极 的 影响 ， 图 注意 力 模 
各 个 部 分 对 于 分 割 效果 都 有 着 不 同 程度 的 提升 作用 。 


能 。 材 料 结构 的 大 部 分 噪点 都 被 很 好 的 过 滤 ， 对 大 面积 的 连 ”的 图 ;> 
通 区 域 分 割 准确 。 材 料 结构 之 间 的 狭 窗 边界 分 割 优 于 绝 大 多 ” 块 中 


人 


数 方法 。 在 颜色 对 比 度 低 的 情况 下 ， 依 然 展现 强大 的 学 习 能 “实验 的 可 视 化 结果 如 图 6 所 示 ， 每 一 组 的 网 络 模型 对 于 材料 
力 。 本 文 的 方法 较 好 的 权衡 了 分 类 准确 率 和 定位 精度 。 结构 的 分 割 结果 都 是 较为 精确 的 ， 本 文 难 用 肉眼 去 发 现 不 同 
2.3 图 注意 力 模块 有 效 性 的 验证 实验 组 之 间 的 区 别 。 然 而 ， 在 边界 的 分 割 中 ， 发 现在 每 一 组 实验 

验证 图 注 ”的 第 五 张 和 第 六 张 图 ， 本 文 提出 的 模块 对 于 识别 边界 有 很 好 


本 文 探 究 了 基于 不 同 backbone 的 网 络 的 性 能 , 
意 力 模块 的 有 效 性 ， 对 比 各 个 网 络 模型 添加 图 注意 力 模块 和 不 ”的 积极 影响 。 由 此 可 得 ， 基 于 多 维特 征 融合 的 图 注意 力 模块 
添加 图 注意 力 模 块 的 网 络 性 能 。 本 文 对 比 


了 backbone 为 提升 了 对 于 微小 细节 的 分 割 效果 。 

ResNet34-UNet、ResNet34-FCN 和 UNet++ 的 网 络 模型 ， 发现 图 表 5 消融 实验 
注意 力 模 块 对 于 提高 网 络 性 能 有 着 积极 的 作用 ， 如 表 3 所 示 。 Tab.5 Ablation experiments 

为 了 证 明 提出 的 图 注意 力 模块 对 于 材料 图 像 分 割 的 积极 Methods spheroidite wood pearlitel pearlite2 
作用 ,对 比 了 以 往 经 典 的 注意 力 方法 , 即 SE-Net?24、CBMA[231、 UNetHGCN 96.2792 89.1921 94.2530 90.0736 
DANet24、CCNet25 和 PSANet29， 如 表 4 所 示 。 本 文 把 以 上 UNet+GAT 92.6897 88.3697 93.9177 92.3606 
五 种 注意 力 方 法 作为 五 个 不 同 的 模块 和 提出 的 图 注意 力 模块 UNet+ MGCM 95.8542 90.1897 94.5596 90.2766 
分 别 添加 到 UNet 中 在 四 个 数据 集 上 进行 验证 对 比 。 实 验证 UNettMGAM-a 96.4528 89.8272 93.8442 89.9251 
明 提 出 的 模块 对 于 材料 图 像 的 分 割 有 着 积极 影响 。 本 文 approach 96.9200 90.3073 94.6179 91.5946 
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Fig.6 Ablation experiments 


结束 语 
在 这 项 工作 中 ， 提 取 了 一 种 针对 小 样本 材料 结构 


下 


像 的 


语义 分 割 方法 。 本 文 将 基于 多 维特 征 融合 的 图 注意 力 模块 放 


入 UNet 中 ， 
实现 对 材料 图 像 的 自动 分 割 。 
例如 本 文 方法 在 计算 成 本 方面 相对 昂贵 。 
明显 的 边界 细节 还 是 不 能 很 好 的 分 割 出 来 。 对 于 未 来 的 丰 
工作 ， 将 ; 


在 样本 数量 少 的 前 提 下 获得 更 多 的 特征 信息 去 
该 方法 有 一 些 缺 点 有 竺 改进。 
其 次 ， 材 料 结构 


疯 汽 当 


步 加 强 本 文 方法 ， 如 结合 pe 的 优点 使 用 


深 的 图 卷 积 ; 
新 材料 


经 网 络 提高 模型 的 拟 合 能 以 应 用 于 更 多 的 


结构 。 
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